AWS Inferentia 2
AWS 第二代自研 AI 推理芯片(2023-04 GA),由 Annapurna Labs 设计,目标是为大模型推理提供低成本 + 高吞吐实例(Inf2),是 AWS Bedrock 多数模型推理的底层硬件之一。
关键规格
| 维度 | 数值 |
|---|---|
| 发布 | 2023-04 GA |
| 制程 | TSMC 7nm(推测) |
| FP16 算力 | ~190 TFLOPS(单芯片) |
| 显存 | 32 GB HBM |
| 显存带宽 | 820 GB/s |
| 互联 | NeuronLink |
| 整机形态 | Inf2 实例(12 卡 inf2.48xlarge 顶配) |
市场定位
Inferentia 2 主打"大模型推理性价比":
- 与 NVIDIA A10G / L40S 推理 GPU 对标
- 对比 H100 推理,吞吐性价比约 30-40% 价格优势
- 软件层 Neuron Runtime 兼容 PyTorch / HuggingFace
客户与部署
- AWS Bedrock 内部 —— 部分基础模型推理
- 企业 AI 推理 —— SaaS 公司、电商个性化等成本敏感推理负载
- 注:与 Trainium 2 不同,Inferentia 2 是面向第三方客户的主流推理实例,已大规模商用
演进路线
Inferentia 1(2019, 16nm 级,第一代尝试)→ Inferentia 2(2023, 主力商用)→ 与 Trainium 2 推理模式合并:Trainium 2 同时具备推理能力("统一计算芯片"路线)
关联
↑ up::2-01-核心逻辑芯片 Annapurna Labs ↓ down::3-01-云计算与智算平台 4-04-模型部署与优化 ⚔ competitor::NVIDIA H100 Google TPU v6 Trillium ∈ belongs_to::2-01-核心逻辑芯片